AgentAuditor: 让智能体安全评估器的精确度达到人类水平
AgentAuditor: 让智能体安全评估器的精确度达到人类水平LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
当下的AI Agent领域,正上演着一幕“奇特”的景象,一方面,是关于Agent能力极限的狂热探讨;但另一方面,是当这些光鲜的Agent从实验室走向真实生产环境时的普遍“失速”与“沉寂”。
刚刚谷歌推出了 Gemini CLI,一个开源的 AI Agent,把 Gemini 的能力直接带到你的终端里。可以把它看作是谷歌版的 Claude Code。最香的是,这玩意儿开源、免费用,背后是带百万上下文的最强 Gemini 模型。
MyShell 自从进入 ShellAgent 的框架阶段,由于深度融合了 ComfyUI 生态,图像视频流的 Agent 迎来了井喷式的爆发。上个月据说上新了 150+个,竞争确实有点激烈了。但其实图像视频流的能力并不代表 ShellAgent 所能做的全部可能性,仍然有大量值得探索的场景等待创作者去尝试。
2025年,随着 Agent 应用在千行百业加速落地,Agent 应用开发的实际需求和痛点也正在发生变化。
大家好,我是歸藏(guizang),今天给大家带来 Kimi 的深度研究能力体验和介绍。
你能想象一个汽车经销商每天漏接45%电话的场景吗?这意味着几乎一半想要预约保养、询问配件或购车咨询的客户都被直接晾在了一边。
这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
随着语言模型在强化学习和 agentic 领域的进步,agent 正在从通用领域快速渗透到垂直领域,科学和生物医药这类高价值领域尤其受到关注。
在 AI Agent 浪潮席卷行业的当下,高效优雅开发具备复杂推理与协作能力的智能体成为业界焦点。本文将系统梳理 AI Agent 核心理念、主流协议与思考框架,并结合 Golang 生态工程化框架,深入剖析多 Agent 协作系统的设计与落地。